
Hugging Face论文热榜第一!AI推理新方法,打破强化学习天花板,全面开源
Hugging Face论文热榜第一!AI推理新方法,打破强化学习天花板,全面开源本文提出 LUFFY 强化学习方法,一种结合离线专家示范与在线强化学习的推理训练范式,打破了“模仿学习只学不练、强化学习只练不学”的传统壁垒。LUFFY 通过将高质量专家示范制定为一种离策略指引,并引入混合策略优化与策略塑形机制,稳定地实现了在保持探索能力的同时高效吸收强者经验。
来自主题: AI技术研报
6277 点击 2025-04-27 09:22